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Beschreibung 

Sprachruckmeldung bei der sprecherunabhangigen Namenswahl 

5 Die Technologie der Spracherkennung fiir mobile Endgerate ist 
mittlerweile so weit f ortgeschritten, dass es moglich ist, 
eine sprecherunabhangige Namenswahl (Speaker Independent Name 
Dialing) zu. realisieren. Eintrage des Adressbuches konnen 
dabei direkt durch Sprechen des eingetragenen Namens gewahlt 
10 werden, ohne dass zuvor beim Benutzer ein Training des 
Sprachmusters durchgefiihrt werden muss. 

Allerdings wird bei einer solchen Form der Spracherkennung 
der Hands free-Modus eingeschrankt, da der Benutzer zur 
15 Verif izierung des Erkennungsergebnisses auf die Riickmeldung 
im Display angewiesen ist und keine akustische Riickmeldung 
des erkannten Eintrages erhalt. 

Um eine akustische Riickmeldung fiir die sprecherunabhangige 
20 Namenswahl zu realisieren, wird heute davon ausgegangen, dass 
Text-zu-Sprache (Text-to-Speech; TTS) -Komponenten zum Einsatz 
kommen miissen. Diese TTS-Komponenten generieren aus einem 
Text eine synthetische Sprachausgabe . Der erkannte 
Namenseintrag eines Adressbuches kann damit synthetisiert 
25 ausgegeben werden. Die einzusetzenden TTS-Komponenten 

benotigen jedoch eine fiir mobile Endgerate und eingebettete 
Hardware hohe Rechenleistung sowie grofien Speicherbedarf und 
sind damit nur sehr kostenintensiv zu realisieren. Die 
Sprachqualitat solcher TTS-Systeme fiir mobile Gerate ist 
30 daruber hinaus wegen des kleinen Footprints auf einem 

geringen Niveau. Weiterhin werden auslandische Namen durch 
TTS-Systeme vielfach ungewohnt und fehlerhaft ausgesprochen. 
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Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, 
eine Sprachruckmeldung fiir eine erkannte Spracheingabe 
moglichst ressourcenschonend zu realisieren. 
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Diese Aufgabe wird durch die in den unabhangigen 
Patentansprtichen angegebenen Erfindungen gelost. Vorteilhafte 
Ausgestaltungen ergeben sich aus den Unteranspruchen. 

Dementsprechend wird in einem Verfahren zur Spracherkennung 
xnsbesondere auf eingebetteter Hardware und/oder einem 
mobilen Endgerat, durch einen Benutzer ein erstes 
Sprachsignal mittels Einsprechen eingegeben. Die Bezeichnung 
Erstes" Sprachsignal dient lediglich dazu, das Sprachsignal 
im Rahmen dieses Textes von weiteren, folgenden 
Sprachsignalen zu unterscheiden. Das eingegebene erste 
Sprachsignal wird erkannt, indem es einem Erkennungseintrag 
zugeordnet wird, und aufgenommen, indem Daten zur akustischen 
Wrederherstellung des Sprachsignals abgespeichert werden, die 
zur akustischen Representation des Sprachsignals benotigt 
werden. Die Aufnahme des eingegebenen ersten Sprachsignals 
wxrd schliefilich als dem Erkennungseintrag zugeordnet 
gespeichert. Dadurch steht sie fur spatere Erkennungen als 
Bestatigungssignal in Form einer Sprachruckmeldung zur 
Verfugung. 

Vorzugsweise wird die Aufnahme des eingegebenen ersten 
Sprachsignals nur dann als dem Erkennungseintrag zugeordnet 
gespeachert, wenn vom Benutzer bestatigt wird, dass das 
eingegebene erste Sprachsignal richtig erkannt wurde. 
Alternativ oder erganzend kann die Abspeicherung eines 
falschlich einem Erkennungseintrag zugeordneten Sprachsignals 
spater auch wieder geloscht werden. 

Insbesondere vor der Bestatigung, dass das eingegebene 
Sprachsignal richtig erkannt wurde, lasst sich eine optische 
Representation des Erkennungseintrags auf einer Anzeige 
ausgeben. Der Benutzer kann dadurch die optische 
Representation des Erkennungseintrags lesen und danach 
bestatigen, dass das Sprachsignal richtig erkannt wurde. 



WO 2004/084184 




PCT/EP2004/001437 



Nach dem Abspeichern und Erkennen des ursprtinglichen 
Sprachsignals gestalten sich Spracherkennungsvorgange von 
weiteren, dem ersten Sprachsignal gleichen oder ahnlichen 
Sprachsignalen wie folgt: Vom Benutzer wird ein weiteres 
5 Sprachsignal eingegeben. Das weitere eingegebene Sprachsignal 
wird erkannt, indem es dem Erkennungseintrag zugeordnet wird. 
Schliefilich wird die als dem Erkennungseintrag zugeordnet 
gespeicherte Aufnahme des eingegebenen ersten Sprachsignals 
zur Bestatigung, dass das weitere eingegebene Sprachsignal 
10 als der Erkennungseintrag erkannt wurde, akustisch 
ausgegeben. 

Zusatzlich zu der oben beschriebenen automatischen Zuordnung 
und Abspeicherung von Sprachsignalen kann dem Benutzer dies- 
is Moglichkeit gegeben werden, explizit selbst Sprachsignale • 
aufzunehmen und sie manuell Erkennungseintragen zuzuordnen. 
Dazu ist zu einem weiteren Erkennungseintrag ohne 
zwischengeschaltete Spracherkennung ein gewiinschtes 
Sprachsignal eingebbar und abspeicherbar . 

20 

Das Verfahren ist insbesondere ein Verfahren zur 
sprecherunabhangigen Namenswahl. Es lasst sich aber auch fur 
alle anderen Anwendungsgebiete der, insbesondere 
sprecherunabhangigen, Spracherkennung anwenden, bei denen 

25 eine Sprachriickmeldung zur Realisierung eines "Full 

Handsfree" -Modus benotigt wird, wie beispielsweise bei 
Command & Control, bei Sprachlinks (Voice Links) , 
insbesondere bei der Internetnavigation, bei der Sprachwahl 
von Anwendungen (Speech Application Selection) und/oder bei 

30 der Spracheingabe von Stadt- und Strafiennamen (City Name 
Input) . 

Eine Vorrichtung, die eingerichtet ist und Mittel aufweist, 
das geschilderte Verfahren auszufiihren, lasst sich 
35 beispielsweise durch entsprechendes Programmieren und 

Einrichten einer Datenverarbeitungsanlage realisieren. Die 
Vorrichtung weist dabei insbesondere Mittel zur Eingabe des 



WO 2004/084184 _ _ 

^CT/EP2004/001437 



Sprachsignals, Mittel zum Erkennen des Sprachsignals durch 
Zuordnen zu einem Erkennungseintrag und Speichermittel auf 
xn denen das eingegebene Sprachsignal zu dem 
Erkennungseintrag abspeicherbar 1st. Vorteilhafte 
5 Ausgestaltungen der Vorrichtung ergeben sich analog zu den 
vortexlhaf ten Ausgestaltungen des Verf ahrens . 

Die Vorrichtung ist insbesondere ein mobiles Endgerat 
yorzugsweise eine mobile Kommunikationseinrichtung, etwa in 
10 Form eines Mobiltelefons und/oder PDAs oder eine mobile 

Navigationseinrichtung in Form eines Navigations systems in 
exnem Fahrzeug. 

Ein Programmprodukt fur eine Datenverarbeitungsanlage, das 
15 Codeabschnitte enthalt, mit denen eines der geschilderten 

Verfahren auf der Datenverarbeitungsanlage ausgefuhrt werden 
kann, lasst sich durch geeignete Implementierung des 
Verfahrens in einer Programmiersprache und Obersetzung in von 
20 T e 7 erarbeitun * san1 ^ ausfuhrbaren Code ausftihren. Die 

20 Codeabschnxtte werden dazu gespeichert. Dabei wird unter 
exnem Programmprodukt das Programm als handelbares Produkt 
verstanden. Es kann in beliebiger Form vorliegen, so zum 
Bexspxel auf Papier, einem computerlesbaren Datentrager oder 
uber ein Netz verteilt. 

25 

Weitere Vorteile und Merkmale der Erfindung ergeben sich aus 
der Beschreibung eines Ausf uhrungsbei spiels . 

Durch die Erfindung kann bei der sprecherunabhangigen 
30 Namenswahl ohne die Verwendung von TTS-Komponenten 

schrittweise eine SprachrUckmeldung kostengUnstig realisiert 
werden. L 

Ein durch einen Benutzer gesprochener Name wird dazu bei 
35 emer Sprachwahl nicht nur dem Spracherkenner zugeftihrt 

sondern er wird zusatzlich parallel auch als Sprachkonserve 
mrtgeschnxtten. Bei der erstmaligen Namenswahl eines 
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Adressbucheintrages wird der vom Spracherkenner erkannte 
Namenseintrag optisch dem Benutzer im Display angezeigt. 
Dariiber hinaus wird der Benutzer akustisch mit einem 
Tonsignal auf gef ordert , das Erkennungsergebnis zu bestatigen. 
Bestatigt der Benutzer das Ergebnis, wird der erkannte 
Adressbucheintrag gewahlt und die Aufnahme des eingegebenen 
Sprachsignals in Form der auf genommenen Sprachkonserve dem 
Erkennungseintrag in Form des Adressbucheintrages zugeordnet. 
Bei jeder weiteren Namenswahl dieses Eintrages kann nun neben 
der optischen Ruckmeldung auch die zugeordnete Sprachkonserve 
als Sprachruckmeldung verwendet werden. Der Benutzer wird 
dadurch sowohl visuell als auch akustisch uber das 
Erkennungsergebnis informiert. Es lasst sich damit ein Full 
Handsfree-Modus erreichen, der eine korrekte, qualitativ u 
hochwertige Sprachwidergabe besitzt. Durch die zuverlassig" 
zugeordnete Sprachkonserve des Benutzers karin dabei auf die 
kostenintensive TTS-Komponente verzichtet werden. 

Die Erfindung beruht also auf einem selbstinitiierenden 
System, das auf der Kombination des Sprachmitschnittes bei 
der Spracherkennung und der zuverlassigen Zuordnung eines r 
Sprachmitschnittes durch die Bestatigung des 
Erkennungsergebnisses basiert. 

Dies soil nochmals an einem weiter konkretisierten 
Ausfuhrungsbeispiel erlautert werden. In einem Mobiltelefon 
werden mittels eines sprecherunabhangigen, HMM-basierten 
Spracherkenners Funktionen der sprecherunabhangigen 
Namenswahl implementiert . Alle Namen im Adressbuch des 
Benutzers werden dem Spracherkenner uber eine Graphem-zu- 
Phonem-Technologie bekannt gemacht und konnen damit direkt 
per Sprache gewahlt werden. 

Im Initialzustand des Systems existieren keine 
Sprachkonserven zu den Adressbucheintragen. Bei Aktivierung 
der Funktionalitat zur sprecherunabhangigen Namenswahl wird 
der durch den Benutzer gesprochene Name dem Spracherkenner 
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zugefiihrt und parallel als Sprachkonserve mitgeschnitten. Der 
Spracherkenner liefert das Erkennungsergebnis zuriick und es 
wird tiberpruft, ob zu dem Erkennungsergebnis bereits eine 
Sprachkonserve vorliegt. 

Existiert noch keine Sprachkonserve, wird das 

Erkennungsergebnis auf dem Display angezeigt und der Benutzer 
mit einem Voice Prompt wie zum Beispiel "Erkennung 
bestatigen" oder "Wahlen" auf gefordert, das 

Erkennungsergebnis zu bestatigen. Wird das Ergebnis durch die 
Taste "Wahlen" bestatigt, wird die Sprachkonserve dem 
Adressbucheintrag zugeordnet und die Nummer wird gewahlt. 
Wird das Ergebnis durch die Taste "Abbrechen" nicht 
bestatigt, wird die Sprachkonserve geldscht und kein 
Wahl vor gang durchgefuhrt . 

1st zu einem erkannten Adressbucheintrag bereits eine 
Sprachkonserve zugeordnet, wird diese neben der 
Displayanzeige dem Benutzer vorgespielt. Der Wahlvorgang wird 
danach automatisch gestartet. Durch die Sprachruckmeldung 
(Voice Feedback) hat der Benutzer auch im Hands free-Betrieb 
die Mdglichkeit, einfach zu uberprufen, ob das 
Erkennungsergebnis korrekt ist. Wahrend des gestarteten 
Wahlvorgangs bleibt dem Benutzer in der Kegel gentlgend Zeit, 
den Wahlvorgang im Falle einer Fehlerkennung noch 
abzubrechen. 



Zusatzlich zu der oben beschriebenen automatischen Zuordnung 
von Sprachkonserven kann dem Benutzer die Mdglichkeit 
angeboten werden, explizit selbst Sprachkonserven aufzunehmen 
und manuell zuzuordnen. 

Verwenden mehrere Benutzer ein Gerat, kdnnen Benutzerprof ile 
angelegt werden, bei denen fur jeden Benutzer individuell 
seine eigenen Sprachkonserven im jeweiligen Profil hinterlegt 
werden. Damit lasst sich ein Stimmenmix vermeiden und ein 
homogenes akustisches Klangbild erreichen. 
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Patent ansprtiche 

1. Verfahren zur sprecherunabhangigen Spracherkennung, 
insbesondere auf eingebetteter Hardware und/oder einem 
mobilen Endgerat, 

- bei dem ein erstes Sprachsignal eingegeben wird, 

- bei dem das eingegebene erste Sprachsignal aufgenommen wird 
und erkannt wird, indem es einem Erkennungseintrag zugeordnet 
wird, 

- bei dem die Aufnahme des eingegebenen ersten Sprachsignals 
als dem Erkennungseintrag zugeordnet gespeichert wird. 

2. Verfahren nach Anspruch 1, 

bei dem die Aufnahme des eingegebenen ersten Sprachsignals 
nur dann als dem Erkennungseintrag zugeordnet gespeichert : 
wird, wenn bestatigt wird, dass das eingegebene erste 
Sprachsignal richtig erkannt wurde. 

3. Verfahren nach einem der vorhergehenden Ansprtiche, 

bei dem eine optische Representation des Erkennungseintrags 
ausgegeben wird. 

4. Verfahren nach einem der vorhergehenden Ansprtiche, 

- bei dem ein weiteres Sprachsignal eingegeben wird, 

- bei dem das weitere eingegebene Sprachsignal erkannt wird, 
indem es dem Erkennungseintrag zugeordnet wird, 

- bei dem die als dem Erkennungseintrag zugeordnet 
gespeicherte Aufnahme des eingegebenen ersten Sprachsignals 
ausgegeben wird. 

5. Verfahren nach einem der vorhergehenden Ansprtiche, 
bei dem zu einem weiteren Erkennungseintrag ohne 
zwischengeschaltete Spracherkennung ein gewtinschtes 
Sprachsignal eingebbar und abspeicherbar ist. 
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6. Verfahren nach einem der vorhergehenden Ansprtlche, 
bex dem das Verfahren ein Verfahren zur Namenswahl, 
insbesondere far eine Kommunikationseinrichtung, 1st 
insbesondere ein Verfahren zur sprecherunabhangigen ' 

5 Namenswahl . 

7. Verfahren nach einem der Ansprtlche 1 bis 5, 

bei dem das Verfahren ein Verfahren zur Eingabe von stadt- 
und/oder Strafiennamen ist, insbesondere ein Verfahren zur 
10 sprecherunabhangigen Eingabe von Stadt- und/oder 
Strafiennamen . 

8. Verfahren nach einem der Ansprtlche 1 bis 5, 

bei dem das Verfahren ein Verfahren zur spracngestiitzten 
15 Applikationssteuerung ist. 

9. Verfahren nach einem der Ansprtlche 1 bis 5, 

bei dem das Verfahren ein Verfahren zur sprachgesteuerten 
Auswahl von Internet Links (Voice Links) ist 

20 

10. Vorrichtung, die eingerichtet ist und Mittel aufweist, so 
dass em Verfahren nach einem der Ansprtlche 1 bis 7 
ausfiihrbar ist. 

25 11. Vorrichtung nach Anspruch 10, 

die ein mobiles Endgerat ist, insbesondere eine mobile 
Kommunikationseinrichtung und/oder mobile 
Navigationseinrichtung . 

30 12. Programmprodukt, das, wenn es auf eine 

Datenverarbeitungsanlage geladen und darauf ausgeftlhrt wird 
em Verfahren nach einem der Ansprtlche 1 bis 9 oder eine 
Vorrichtung nach einem der Ansprtlche 10 oder 11 in Kraft 
setzt. 
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